构建可用的无线电监控自动语音识别(ASR)系统是资源不足的语言的一项挑战性任务,但这在广播是公众沟通和讨论的主要媒介的社会中至关重要。联合国在乌干达的最初努力证明了如何理解被社交媒体排除在社交媒体中的农村人的看法在国家规划中很重要。但是,由于缺乏转录的语音数据集,这些努力正受到挑战。在本文中,Makerere人工智能研究实验室发布了155小时的Luganda Radio演讲语料库。据我们所知,这是撒哈拉以南非洲第一个公开可用的广播数据集。本文描述了语音语料库的开发,并使用开源语音识别工具包Coqui STT Toolkit提出了基线Luganda ASR绩效结果。
translated by 谷歌翻译
High-dimensional data arises in numerous applications, and the rapidly developing field of geometric deep learning seeks to develop neural network architectures to analyze such data in non-Euclidean domains, such as graphs and manifolds. Recent work by Z. Wang, L. Ruiz, and A. Ribeiro has introduced a method for constructing manifold neural networks using the spectral decomposition of the Laplace Beltrami operator. Moreover, in this work, the authors provide a numerical scheme for implementing such neural networks when the manifold is unknown and one only has access to finitely many sample points. The authors show that this scheme, which relies upon building a data-driven graph, converges to the continuum limit as the number of sample points tends to infinity. Here, we build upon this result by establishing a rate of convergence that depends on the intrinsic dimension of the manifold but is independent of the ambient dimension. We also discuss how the rate of convergence depends on the depth of the network and the number of filters used in each layer.
translated by 谷歌翻译
This work explores the zero-shot compositional learning ability of large pre-trained vision-language models(VLMs) within the prompt-based learning framework and propose a model (\textit{PromptCompVL}) to solve the compositonal zero-shot learning (CZSL) problem. \textit{PromptCompVL} makes two design choices: first, it uses a soft-prompting instead of hard-prompting to inject learnable parameters to reprogram VLMs for compositional learning. Second, to address the compositional challenge, it uses the soft-embedding layer to learn primitive concepts in different combinations. By combining both soft-embedding and soft-prompting, \textit{PromptCompVL} achieves state-of-the-art performance on the MIT-States dataset. Furthermore, our proposed model achieves consistent improvement compared to other CLIP-based methods which shows the effectiveness of the proposed prompting strategies for CZSL.
translated by 谷歌翻译
散射变换是一种基于小波的多层转换,最初是作为卷积神经网络(CNN)的模型引入的,它在我们对这些网络稳定性和不变性属性的理解中发挥了基础作用。随后,人们普遍兴趣将CNN的成功扩展到具有非欧盟结构的数据集,例如图形和歧管,从而导致了几何深度学习的新兴领域。为了提高我们对这个新领域中使用的体系结构的理解,几篇论文提出了对非欧几里得数据结构(如无方向的图形和紧凑的Riemannian歧管)的散射转换的概括。在本文中,我们介绍了一个通用的统一模型,用于测量空间上的几何散射。我们提出的框架包括以前的几何散射作品作为特殊情况,但也适用于更通用的设置,例如有向图,签名图和带边界的歧管。我们提出了一个新标准,该标准可以识别哪些有用表示应该不变的组,并表明该标准足以确保散射变换具有理想的稳定性和不变性属性。此外,我们考虑从随机采样未知歧管获得的有限度量空间。我们提出了两种构造数据驱动图的方法,在该图上相关的图形散射转换近似于基础歧管上的散射变换。此外,我们使用基于扩散图的方法来证明这些近似值之一的收敛速率的定量估计值,因为样品点的数量趋向于无穷大。最后,我们在球形图像,有向图和高维单细胞数据上展示了方法的实用性。
translated by 谷歌翻译
我们介绍了队列舒适模型,这是一个新框架,用于预测新乘员如何看待其热环境。队列舒适模型利用从样本人群中收集的历史数据,这些数据具有一些潜在的偏好相似性,以预测新居民的热偏好反应。我们的框架能够利用可用的背景信息,例如物理特征和一次性的登机调查(对生活尺度的满意度,高度敏感的人尺度,五个个性特征)以及新乘员以及生理和环境传感器的测量值与热偏好响应配对。我们在两个公开可用的数据集中实施了框架,其中包含来自55人的纵向数据,其中包括6,000多个单独的热舒适调查。我们观察到,使用背景信息的队列舒适模型几乎没有变化的热偏好预测性能,但没有使用历史数据。另一方面,使用队列舒适模型的每个数据集占用人群的一半和三分之一的占用人群,而目标居民的历史数据较少,同类舒适模型将其热偏好预测增加了8〜 \%,平均为5〜 \%与对整个乘员人群进行训练的通用模型相比,某些乘员最多可容纳36点\%和46〜%。该框架以数据和站点不可知的方式呈现,其不同的组件很容易根据乘员和建筑物的数据可用性定制。队列舒适模型可能是迈向个性化的重要一步,而无需为每个新乘员开发个性化模型。
translated by 谷歌翻译
张量分解因其在多维数据中捕获潜在因素的固有能力而获得了越来越多的兴趣,该数据具有许多应用程序,例如推荐系统和电子健康记录(EHR)挖掘。已经提出了Parafac2及其变体来解决不规则的张量,其中一种张量模式不对齐,例如,EHR中推荐系统或患者的不同用户可能具有不同的记录。 PARAFAC2已成功应用于EHRS,用于提取有意义的医学概念(表型)。尽管有最近的进步,但当前模型的可预测性和可解释性并不令人满意,这限制了其用于下游分析的效用。在本文中,我们提出了多个多任务学习的多个监督不规则张量分解。多个多个可以灵活地包含静态(例如,院内死亡率预测)和连续或动态(例如,通风的需求)任务。通过通过下游预测任务监督张量分解并利用来自多个相关预测任务的信息,Multipar不仅可以产生更有意义的表型,而且可以为下游任务提供更好的预测性能。我们在两个现实世界中的EHR数据集上进行了广泛的实验,以证明Multipar是可扩展的,并且与现有的最新方法相比,具有更有意义的亚组和更强的预测性能,可以更好地张紧张量。
translated by 谷歌翻译
卷积神经网络(CNN)已成功应用于胸部X射线(CXR)图像。此外,已证明注释的边界框可以改善CNN的可解释性,以定位异常。但是,只有几个相对较小的CXR数据集可用,并且收集它们非常昂贵。在放射科医生的临床工作流程期间,可以计时地,可以以非侵入性的方式收集眼睛跟踪(ET)数据。我们使用从放射科医生记录的ET数据,同时要求CXR报告训练CNN。我们通过将它们与关键字的命令相关联,并使用它们来监督异常的本地化,从而从ET数据中提取摘要。我们表明,此方法改善了模型的解释性,而不会影响其图像级分类。
translated by 谷歌翻译
歧管散射变换是用于在Riemannian歧管上定义的数据的深度提取器。它是将类似卷积神经网络的操作员扩展到一般流形的第一个例子之一。该模型的初始工作主要集中在其理论稳定性和不变性属性上,但没有为其数值实现提供方法,除非具有预定义的网格的二维表面。在这项工作中,我们根据扩散图的理论提出实用方案,以实现在自然主义系统(例如单细胞遗传学)中产生的流形散射转换,其中数据是一个高度点云,该云是模仿躺在上面的高维点云。低维歧管。我们证明我们的方法对于信号分类和多种分类任务有效。
translated by 谷歌翻译
从极端视图图像中恢复相机的空间布局和场景的几何形状是计算机视觉的长期挑战。盛行的3D重建算法通常采用匹配范式的图像,并假定场景的一部分是可以在图像上进行的,当输入之间几乎没有重叠时的性能较差。相比之下,人类可以通过形状的先验知识将一个图像中的可见部分与另一个图像中相应的不可见组件相关联。受这个事实的启发,我们提出了一个名为虚拟通信(VC)的新颖概念。 VC是来自两个图像的一对像素,它们的相机射线在3D中相交。与经典的对应关系相似,VC符合异性几何形状;与经典的信件不同,VC不需要在视图上可以共同提供。因此,即使图像不重叠,也可以建立和利用VC。我们介绍了一种方法,可以在场景中找到基于人类的虚拟对应关系。我们展示了如何与经典捆绑捆绑调整无缝集成的风险投资,以恢复跨极视图的相机姿势。实验表明,在具有挑战性的情况下,我们的方法显着优于最先进的摄像头姿势估计方法,并且在传统的密集捕获的设置中是可比的。我们的方法还释放了多个下游任务的潜力,例如在极端视图场景中从多视图立体声和新型视图合成中进行场景重建。
translated by 谷歌翻译
在本报告中,我们介绍了SFI机器学习中心(ML-LABS)提供的挑战,其中需要估算两台手机之间的距离。这是NIST太近太长时间(TC4TL)挑战的修改版本,因为时间方面被排除在外。我们提出了一种基于蓝牙RSSI和IMU感觉数据的基于功能的方法,该方法的表现优于先前的最新水平,从而将误差降低到0.071。我们对模型进行消融研究,揭示了有关距离和蓝牙RSSI读数之间关系的有趣见解。
translated by 谷歌翻译